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Resume — Les emetteurs d'un canal a acces multiple sont supposes choisir eux-memes leur strategie de controle de puissance de 
maniere a etre efficaces energetiquement. Nous montrons que le concept de jeux stochastiques permet de concevoir des strategies de 
controle a la fois distributes, efficaces globalement et ne necessitant qu'une connaissance partielle du systeme de communication. 
La region de tous les points d'utilite d'equilibre est etablie et une strategie pratique de controle de puissance de l'emetteur, 
reposant sur le partage temporel legitime, est proposee. 

Abstract — Transmitters of a multiple access channel are assumed to freely choose their power control strategy in order to 
be energy-efficient. We show that in a stochastic game framework, we can develop energy-efficient distributed control strategies 
which only require partial knowledge of the entire system. Achievable utility equilibrium region is characterized and based on 
time-sharing, an explicit power control strategy is proposed. 



1 Introduction 

Dans un systeme de communication sans fil ou plu- 
sieurs emetteurs voient leur signaux interferer en recep- 
tion, la disparite des dynanriques de puissance des com- 
posantes du signal recu pose generalement probleme au 
recepteur. Et ce, notamment lorsque le recepteur doit de- 
coder plusieurs de ces composantes. Le controle de puis- 
sance a l'emission vise precisement a compenser cette forte 
disparite. Dans cet article, nous nous interessons a un sce- 
nario d'importance croissante, celui des systemes distri- 
bues. Dans ce cadre, l'emetteur decide de sa politique de 
controle de puissance en vue de maximiser sa propre me- 
trique de performance. La metrique retenue, appelee uti- 
lite, est l'efficacite energetique (en bit par Joule) . Ce cadre 
est exactement celui introduit par Goodman et al. dans [4]. 
Les auteurs de [1] ont remarque que la theorie des jeux, 
theorie dont l'essence meme est d'etudier des preneurs de 
decisions dont les actions sont inter-dependantes, est un 
outil pertinent pour analyser ce probleme. Leur modele, 
a savoir un modele de jeu en un coup joue pour chaque 
paquet de donnees emis (les joueurs etant les emetteurs et 
Taction d'un joueur consistant a choisir son niveau de puis- 
sance), conduit a une strategie de controle pratique (repo- 
sant sur une connaissance limitee du systeme) mais inef- 
ficace globalement. Plus precisement, on peut demontrer 
qu'il existe une politique de controle qui Pareto-domine 
leur solution, c'est-a-dire pour laquelle tous les emetteurs 



font mieux en termes d'utilite. Les auteurs de [8] ont de- 
montre qu'un modele de jeu repete [7] permet d'avoir 
une modelisation plus fine du probleme, modelisation qui 
conduit a des solutions plus efficaces globalement. L'idee 
fondamentale et nouvelle en controle de puissance, et que 
nous exploitons dans cet article, est qu'il ne faut pas sup- 
poser le controle de puissance independant d'un paquet a 
l'autre, et ceci meme si les realisations des gains des ca- 
naux sont independantes. Un modele de jeu dynamique 
tel que le jeu repete permet de tenir compte du fait que 
les joueurs inter agissent plusieurs fois et ceci conduit a 
creer une correlation entre les niveaux de puissances choi- 
sis par un joueur au cours du temps, et nous le repetons, 
meme pour des canaux dits i.i.d. La contribution de cet 
article est de generaliser les travaux de [S] en relaxant une 
hypothese de normalisation de l'utilite individuelle par le 
gain de canal. Pour faire cela, nous utilisons un modele 
de jeux stochastiques [6], ce qui nous amene a supprimer 
la sous-optimalite en termes de performances induite par 
la normalisation necessaire au modele de jeu repete. Les 
travaux de [31 [S] sont alors utilises pour obtenir un Folk 
theoreme qui caracterise la region des utilites atteignables 
de ce jeu stochastique. Nous presentons egalement une 
strategie de controle de puissance explicite pour ce jeu. 

Dans le paragraphe [5J nous detaillons le modele du jeu 
stochastique que nous considerons. Au paragraphed nous 
presentons les resultats analytiques obtenus en ce qui con- 
cerne la region des utilites atteignables ainsi que les re- 



sultats d'equilibre et de performance de la strategie de 
Selection des Meilleurs Utilisateurs (SMU). Dans le para- 
graphe@]sont presentes les resultats de simulation obtenus 
pour comparer la strategie SMU a d'autres strategies de 
controle de puissance. 

2 Modelisation du probleme par un 
jeu stochastique 

Nous considerons un canal a acces multiple, decentra- 
lise au sens du controle de puissance, pour lequel K uti- 
lisateurs transmettent vers un recepteur sur des inter- 
valles de temps (duree d'un paquet), que nous appellerons 
etapes du jeu repete, sur lesquels les canaux sont sup- 
poses statiques. A chaque etape, les canaux selectifs en 
temps mais non selectifs en frequence, notes hi, sont ti- 
res de maniere independante sur un ensemble admissible : 
\hi\ 2 G [r)i ltn , rjf lax ] = r^. Nous supposons verifiee l'hypo- 
these de reciprocite des canaux montants et descendants. 
De plus, nous supposons que les terminaux sont capables 
d'estimer avec une erreur negligeable leur canaux mon- 
tants (via un mecanisme de sequences d'apprentissage, une 
boucle de retour, etc). Le signal regu peut s'ecrire : 

K 

Y = Y / h l X l + Z (1) 

x'=l 

avec E|JQ| 2 = pi et Z ~ J\f(0,<r 2 ). Dans un contexte ou 
le recepteur decode le signal de chaque emetteur separe- 
ment et ou il n'y a pas de mecanisme tel que la formation 
de voie |9| pour attenuer les interferences, pour chaque 
utilisateur i G /C = {1,2, ...,K}, le rapport signal sur in- 
terference plus bruit (RSIB) est donne par : 

Pi\hi\ 2 



RSIB, 



li 



(2) 



Nous pouvons maintenant definir le jeu stochastique qui 
modelise l'interaction entre les emetteurs qui choisissent 
leur niveau de puissance au cours du temps. 

Definition 1 (Jeu stochastique) Un jeu stochastique avec 
observation parfaite est defini par Vuplet : 

G = (AC, (Ti)ieK, (vi) i£ fc, (rOie/c, it, 6), (3) 

avec K. V ensemble des joueurs, % V ensemble des strategies 
pour le joueur i, Vi la fonction d'utilite du joueur i sur le 
long terme, Ti Vintervalle des etats de canaux accessibles 
au joueur i, -k la probability de transition sur les etats et 
O I'espace des observations. 

La strategie et l'utilite sur le long terme du joueur i sont 
definies comme suit. 

Definition 2 (Strategie des joueurs) La strategie du 
joueur i G K, est une sequence de fonctions (T,,t) t>1 avec 

e* -> a, 



A l'histoire h t = (0(l)...,0(*-l),»j(t)) G 6* (observations 
passees et etat present), on associe une action pi(t) G Ai- 
La strategie du joueur i est notee t, et le vecteur de 
stategies r = (t\, ...,tk) est nomme strategie jointe. Une 
strategie jointe r entraine une unique sequence d'actions 

W)) t >i- 

Definition 3 (Utilite des joueurs) Soit t une strate- 
gic jointe. L'utilite du joueur i G /C sachant que I'etat 
initial du canal est i](l) est definie par 

«i(r, 2(1)) =^A(l-A)*- 1 E r , 7 r [«i(g(t), 2 (t))| 2 (l)] (5) 

avec Ui(j>i, ...,pk) — ' — "■ [bit/J], l'utilite instanta- 
nee du joueur i telle que definie dans [3]. Ri est le debit 
d'emission du joueur i, f est la fonction d'efhcacite, elle 
prend ses valeurs entre et 1. Le parametre A est appele 
facteur d'escompte. II peut etre interprete comme une pro- 
babilite d'arret ou le fait que les joueurs apprecient diffe- 
rcmment leurs gains a court terme et leurs gains a long 
terme. 



3 Resultats analytiques 

3.1 Folk Theoreme 

Theoreme 4 (Folk) Soit F V ensemble des utilites attei- 
gnables et individuellement rationnelles. Sous I'hypothese 
que les joueurs disposent du meme signal public, alors pour 
tout profit d'utilite u G F, il existe Xq tel que pour tout 
X < Xq, il existe une strategie d'equilibre public et parfait 
du jeu stochastique dont l'utilite a long terme vaut uEF. 

II faut noter qu'une telle caracterisation de la region d'uti- 
lites atteignables est tres puissante. En effet, la technique 
classique pour obtenir la region d'utilites atteignables con- 
sisterait a determiner toutes les strategies possibles pour 
les joueurs puis de calculer les utilites correspondantes. 
Dans un jeu tres simple ou chaque joueur n'aurait le choix 
qu'entre deux niveaux de puissance a chaque etape, il fau- 
rait considerer 2 N strategies possibles, avec N le nombre 
d'etapes du jeu. D'apres [2 , le Folk theoreme nous auto- 
rise a considerer uniquement les strategies dites de Markov 
sans perte d'optimalite, le nombre de strategies a etudier 
se reduit done a 2' r ' avec |r| le nombre d'etats de canaux. 



^ 



Pi(t). 



(4) 



3.2 Strategie de Selections des Meilleurs 
Utilisateurs 

Obtenir une region d'utilites atteignables est une chose, 
mais il reste a definir formellement des strategies efficaces 
dans cette region. C'est ce que nous proposons de faire 
avec l'introduction d'une strategie dite de Selection des 
Meilleurs Utilisteurs. 



La strategie proposee est basee sur le point de fonction- 
nement presente dans (8| : 



Vi G K., Pi(t) 



IK 



(6) 



rfc(t)l-(tf-l)7x 

ou 7x est l'unique solution non nulle de 

x(l-(K-l)x)f'(x)-f(x) = 0*. (7) 

Contrairement au cas du jeu repete ou les gains des ca- 
naux sont constants, quand ces derniers varient a chaque 
etape, la strategie consistant a ce que chaque joueur emette 
au point de fonctionnement ([6]) n'est plus optimale. II se 
trouve qu'on obtient de meilleurs resultats en termes de 
bien-etre social si on reduit l'ensemble des joueurs emet- 
tant au point de fonctionnement. Cette approche est inti- 
tulee strategie de Selection des Meilleurs Utilisateurs, elle 
est caraterisee de la maniere suivante. 

A chaque etape t du jeu, le recepteur fixe /C ' C /C, 
l'ensemble optimal de joueurs emettant au point de fonc- 
tionnement © pour maximiser la somme des utilites ins- 
tantannees des joueurs. Pour chaque joueur i £ K, : 

- Si i G K, , il lui est recommande d'emettre au point 
de fonctionnement ([6]) a l'etape t. 

- Si i $- )C *, il lui est demande de ne pas emettre a 
cette etape. 

II faut bien noter que le comportement des joueurs n'est 
pas impose, le recepteur envoie seulement des recomman- 
dations aux joueurs. Pour assurer que cette strategie soit 
un equilibre, un mecanisme de punition est etabli : si 
un joueur devie de la strategie, les autres joueurs jouent 
l'equilibre de Nash en un coup pour le restant du jeu. 
L 'equilibre de la strategie est assure si le maximum (en 
termes d'utilite) que peut gagner un joueur en deviant a 
une etape du jeu est inferieur a ce qu'il va perdre en etant 
puni par les autres joueurs jusqu'a la fin du jeu. Nous 
obtenons alors la condition d'equilibre suivante : 

Theoreme 5 (Equilibre de la strategie) La strategie 
SMU est un equilibre du jeu stochastique si Vi G /C 



A< 



E[ Ul (p sm ",7 ? )]-E[u l (p*,r ? )] 



<T 2 /3* 



E[u 4 (p sm «,r ? )]-E[u i (p*,77)] 



(8) 



avec p smu le profil de puissance resultant de l'application 
de la strategie SMU et p* et j3* respectivement le profil de 
puissance et le RSIB correspondant a l'equilibre de Nash 
en un coup. 

La complexite de calcul necessaire a l'execution de cette 
strategie est faible puisqu'on peut prouver qu'a debit d'emis- 
sion egal, la selection optimale de k joueurs pour emettre 
au point de fonctionnement ^j est l'ensemble des k joueurs 
avec les meilleurs gains de canaux. Ainsi dans un jeu a 
K joueur, le recepteur doit comparer K combinaisons de 
joueurs et non 2 K . 



4 Resultats numeriques 



Pour l'obtention de resultats numeriques, nous utilisons 
la fonction d'efncacite f(j) = e~~ avec a = 2 R — 1. Cette 
fonction est introduite dans [T|. 
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Figure 1 - Region atteignable et utilites moyennes de 
diverses strategies pour un jeu a 2 joueurs. 



La figure Q] illustre la region atteignable pour un jeu a 
2 joueurs et 2 etats de canaux (avec ^^- = 4) en consi- 
derant toutes les strategies possibles. La frontiere min- 
max delimite la region d'equilibre. Les utilites moyennes 
de SMU, du point de fonctionnement et de l'equilibre de 
Nash en un coup sont egalement representees a l'interieur 
de cette region. Notons que que la strategie SMU Pareto- 
domine les autres strategies considerees. 

La simulation presentee en figure [5] compare les utilites 
instantannees moyennes de quatre mecanismes de controle 
de puissance en fonction du nombre d'emetteurs. Pour 
cette simulation, on considere un nombre fini de gains de 
canal. La loi d'evolution des gains des canaux suit la pro- 
priete de Markov, c'est-a-dire qu'il existe une matrice de 
probabilite de transtion entre l'etat des canaux a l'instant 
t et l'etat des canaux a l'instant t + 1. Cette marice ainsi 
que les etats de gains de canal accessibles sont les memes 
pour tous les joueurs. A travers l'etude de ces quatres me- 
canismes, nous etudions les performances atteignables en 
fonction du caractere centralise ou decentralise du meca- 
nisme ainsi que de la quantite d'information disponible 
sur le systeme. Ces mecanismes sont les suivants : 

- Une version centralisee de SMU, dans laquelle le re- 
cepteur choisit qui emet a chaque tour et impose la 
puissance d'emission en connaisant les gains des ca- 
naux a l'instant t. Dans le modele considere, les emet- 
teurs appliquent a l'instant t + 1 la puissance d'emis- 
sion decidee a l'instant t. Ce retard se justifie par un 
temps de transmission entre le recepteur et les emet- 
teurs. 

- SMU, pour lequel le recepteur decide uniquement l'en- 
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Nombre de joueurs 

FIGURE 2 - Utilites moyennes de quatre mecanismes de 
controle de puissance en fonction du nombre d'emetteurs. 



d'un paquet au suivant. Cette approche nous permet no- 
tamment de caracteriser la region des utilites atteignables. 
II apparait qu'etant donnees les interactions sur a long 
terme entre les emetteurs, ces derniers peuvent avoir inte- 
ret a ne pas emettre certains paquets si leurs conditions de 
canal sont trop mauvaises. Cela nous mene a etablir une 
strategie de controle de puissance fondee sur le partage 
temporel qui se montre performante en termes d'efficacite 
energetique. 

Les perspectives de ce travail sont d'integrer dans le 
controle de puissance plusieurs aspects visant a mieux 
prendre en compte les caracteristiques des flux d'informa- 
tion dans des reseaux reels : la possibilite de tolerer un re- 
tard sur remission d'un paquet (delay tolerant networks) ; 
la possibilite d'avoir un flux de paquets sporadique ; le fait 
que la taille memoire de stockage des paquets a l'emetteur 
est finic. 



semble des emetteurs conseille a chaque tour du jeu. 
Chaque emetteur connaissant le gain de son canal et 
le nombres des autres emetteurs qui vont transmettre 
avec lui, il fixe lui-meme sa puissance d'emission. De 
la meme maniere que precedemment, on prend en 
compte le retard de transmission entre le recepteur 
et les emeteurs. L'ensemble des joueurs qui emettent 
a l'instant t + 1 est done decide par le recepteur a 
l'instant t. 

- La strategie reposant sur le point de fonctionnement 
developpee dans [5]. L'approche est encore plus de- 
centralisee puisque tous les emetteurs fixent leur puis- 
sance a chaque tour en connaissant le gain de leur ca- 
nal et le nombre de joueurssans recommandation de 
la part du recepteur. 

- Un cquilibre de Nash "myope". Dans ce cas, les emet- 
teurs n'ont aucune information sur le systeme mis a 
part l'esperance du gain de leur canal et le nombre 
de joueurs. lis se contentent done de jouer l'equilibre 
de Nash statique. 

II est interessant de noter que SMU offre de meilleures 
performances que les trois autres mecanismes. En ce qui 
concerne l'approche centralisee, le fait que la puissance 
d'emission soit connue des emetteurs avec un temps de 
retard par rapport a l'etat des gains des canaux est un ve- 
ritable handicap qui n'est compense que pour un nombre 
sufflsant d'emetteurs. 



5 Conclusion et perspectives 

Dans un reseau sans fil distribue ou les emetteurs sont 
des agents egoistes libres de choisir leur puissance d'emis- 
sion pour chaque paquet, les interactions a long terme 
meritent d'etre etudiees. Le cadre des jeux stochastiques 
permet de prendre en compte le caractere repete de ces 
interactions ainsi que les variations des gains des canaux 
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